Nous allons étudier la perte d’information de données perturbées par une Cell Key Method.
Pour faire notre analyse, nous avons à notre disposition des données Pôle Emploi regroupant 5 tableaux ayant chacun des spécificités différentes comme la catégorie, le quartier prioritaire, le sexe, la catégorie d’âge, le niveau de formation, la durée au chômage et si l’individu est au RSA. Une première présentation de ces données peut être faite comme suit :
str(liste_tableaux)
## List of 5
## $ :Classes 'data.table' and 'data.frame': 33512 obs. of 7 variables:
## ..$ CATEG : chr [1:33512] "E" "D" "E" "E" ...
## ..$ PLG_QP : chr [1:33512] "QP093002" "QP071002" "QP095035" "QP062039" ...
## ..$ SEXE : chr [1:33512] "2" "1" "1" "2" ...
## ..$ nb_obs : num [1:33512] 1 1 1 1 1 1 1 1 1 1 ...
## ..$ rkeys_tot: num [1:33512] 0.00465 0.00679 0.01077 0.01201 0.01552 ...
## ..$ rkeys_max: num [1:33512] 1 1 1 1 0.997 ...
## ..$ ck : num [1:33512] 0.298 0.386 0.393 0.934 0.967 ...
## ..- attr(*, ".internal.selfref")=<externalptr>
## $ :Classes 'data.table' and 'data.frame': 128625 obs. of 8 variables:
## ..$ CATEG : chr [1:128625] "DE" "D" "E" "E" ...
## ..$ PLG_QP : chr [1:128625] "QP093025" "QP093025" "QP060005" "QP060005" ...
## ..$ AGE_3c : chr [1:128625] "[50,120]" "[50,120]" "[0,26)" "[0,26)" ...
## ..$ SEXE : chr [1:128625] "2" "2" "Ensemble" "2" ...
## ..$ nb_obs : num [1:128625] 1 1 1 1 1 1 1 1 1 1 ...
## ..$ rkeys_tot: num [1:128625] 0.000353 0.000353 0.000576 0.000576 0.000722 ...
## ..$ rkeys_max: num [1:128625] 1 1 1 1 0.997 ...
## ..$ ck : num [1:128625] 0.298 0.386 0.393 0.934 0.967 ...
## ..- attr(*, ".internal.selfref")=<externalptr>
## $ :Classes 'data.table' and 'data.frame': 162055 obs. of 8 variables:
## ..$ CATEG : chr [1:162055] "DE" "E" "E" "DE" ...
## ..$ PLG_QP : chr [1:162055] "QP067005" "QP067005" "QP067005" "QP062003" ...
## ..$ NIVFOR : chr [1:162055] "BAC" "BAC" "BAC" "INFCAPBEP" ...
## ..$ SEXE : chr [1:162055] "1" "Ensemble" "1" "2" ...
## ..$ nb_obs : num [1:162055] 1 1 1 1 1 1 1 1 1 1 ...
## ..$ rkeys_tot: num [1:162055] 4.62e-05 4.62e-05 4.62e-05 1.31e-04 1.31e-04 ...
## ..$ rkeys_max: num [1:162055] 1 1 1 1 0.997 ...
## ..$ ck : num [1:162055] 0.298 0.386 0.393 0.934 0.967 ...
## ..- attr(*, ".internal.selfref")=<externalptr>
## $ :Classes 'data.table' and 'data.frame': 150020 obs. of 8 variables:
## ..$ CATEG : chr [1:150020] "D" "D" "C" "D" ...
## ..$ PLG_QP : chr [1:150020] "QP062003" "QP062003" "QP973019" "QP062030" ...
## ..$ DUR : chr [1:150020] "Dur2" "Dur2" "Dur4" "Dur2" ...
## ..$ SEXE : chr [1:150020] "Ensemble" "2" "2" "2" ...
## ..$ nb_obs : num [1:150020] 1 1 1 1 1 1 1 1 1 1 ...
## ..$ rkeys_tot: num [1:150020] 0.000131 0.000131 0.000231 0.000286 0.000353 ...
## ..$ rkeys_max: num [1:150020] 1 1 1 1 0.997 ...
## ..$ ck : num [1:150020] 0.298 0.386 0.393 0.934 0.967 ...
## ..- attr(*, ".internal.selfref")=<externalptr>
## $ :Classes 'data.table' and 'data.frame': 33315 obs. of 7 variables:
## ..$ CATEG : chr [1:33315] "B" "E" "DE" "D" ...
## ..$ PLG_QP : chr [1:33315] "QP973007" "QP971010" "QP071002" "QP071002" ...
## ..$ RSA : chr [1:33315] "RSA" "RSA" "RSA" "RSA" ...
## ..$ nb_obs : num [1:33315] 1 1 1 1 1 1 1 1 1 1 ...
## ..$ rkeys_tot: num [1:33315] 0.00245 0.0031 0.00679 0.00679 0.00702 ...
## ..$ rkeys_max: num [1:33315] 1 1 1 1 0.997 ...
## ..$ ck : num [1:33315] 0.298 0.386 0.393 0.934 0.967 ...
## ..- attr(*, ".internal.selfref")=<externalptr>
Nous allons ensuite appliquer la CKM et l’arrondi aleatoire à nos tableaux afin de pouvoir comparer les deux méthodes perturbatrices. Nous choisissons un arrondi aléatoire en base 10 et un variance de 6.25 et déviation de 10 pour la CKM. Les 5 tableaux ,contenant données originales et perturbées, sont présentés ici :